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Liaison entre deux variables quantitatives 


e Pour étudier la liaison entre deux variables quantitatives, on peut utiliser : 
@ Le nuage des points ; 
@ Le coefficient de corrélation ; 
@ La régression linéaire simple ; 
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Nuage de points 


e Comme déjà vu dans le chapitre précédent, le nuage de point une une idée 
graphique sur la nature de liaison entre deux variables ; 


ə La figue suivante présente plusieurs formes de nuage de points; 


e Quoi que le nuage de points présente une visualisation de la liaison entre les 
deux variable, il ne permet pas de statuer avec exactitude sur la nature de la 


relation 
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Le coefficient de corrélation 


e Comme nous avons vu dans le chapitre précédent, le coefficient de corrélation 
donne une mesure standardisée de la liaison entre deux variables ; 


ə Soit l'exemple suivant : 


@ Y : Le revenu du ménage; 

@ X : L'âge du chef du ménage; 

@ D'après les données, nous avons trouvé un coefficient de corrélation égale à 
F=0,53; 

Forte corrélation : Il semble que le revenu du ménage augmente avec l'âge du 
patient ; 

Mais, peut-on conclure que le coefficient de corrélation linéaire p de la 
population est significativement différent de 0 ? 

Pour répondre à cette question, il faut mener un test d'hypothèse statistique 
(un prochain cours); 


© © © 
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Limites du coefficient de corrélation 


e Attention aux conclusions non-valides pour une relation non-linéaire ; 


ə Plusieurs relations possibles pour un même coefficient de corrélation, comme 
montré dans la figure ci-dessous ; 


ə Aucune quantification de la relation. 


—0.8 —1.0 
=1.0 —1.0 -1.0 
0.0 0.0 0.0 
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Régression linéaire simple 


ə La régression linéaire (simple et multiple) permet de faire : 

@ Prédiction : Elle permet de prédire la valeur d'une variable en fonction d'autres 
variables connues. Par exemple, prédire le prix d'une maison en fonction de sa 
superficie, de son emplacement, etc. 

@ Analyse des relations : Elle aide à comprendre comment les variables sont liées 
les unes aux autres. Par exemple, déterminer l'influence des heures d'étude sur 
les résultats aux examens. 

@ Contrôle et ajustement : Elle est utilisée pour contrôler et ajuster les variables 
indépendantes afin de comprendre comment ces ajustements pourraient 
affecter la variable dépendante. 

@ Identification des variables importantes : Elle peut aider à identifier les 
variables qui ont le plus d'impact sur la variable cible, en éliminant celles qui 
ont peu ou pas d'influence. 

@ Évaluation des tendances et des prévisions : Elle permet de modéliser des 
tendances historiques et de faire des prévisions basées sur ces modèles. 
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Régression linéaire simple 


ə La régression linéaire simple est une méthode statistique qui cherche à établir 
une relation linéaire entre une variable indépendante (explicatrice) et une 
variable dépendante (cible) ; 


ə Le principe de la régression linéaire simple repose sur l'idée de modéliser cette 
relation linéaire sous la forme d'une droite ; 


e On suppose qu'il existe une relation linéaire entre la variable indépendante 
(X) et la variable dépendante (Y); 


ə L'objectif est de trouver la droite qui minimise la somme des carrés des 
erreurs (différences entre les valeurs prédites et les valeurs réelles) ; 


e Les valeurs réelles sont celles dont nous disposons, elles proviennent souvent 
de l'historique des variables ; 


e Les valeurs prédites sont celle calculées en utilisant la relation de la ligne de 


régression. 
PEN 
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Régression linéaire simple : le modèle 


ə La régression linéaire simple permet de choisir la ligne qui donne une meilleur 
représentation du nuage de points 


ə Quelle est la couleur de la droite qui vous apparaît proche du maxim 
points ? Comment faire le choix ? 
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Régression linéaire simple : le modèle 


ə la fonction de la ligne à estimer en utilisant la régression linéaire simple se 
présente comme suit : 
Y = Bo + Bi. X 
ə On a les points (X;, Y;) pour i=1,...,N 


ə Pour chaque X;, on associe une ordonnée Y; = bo + 51.X qui représente la 
valeur de Y ajustée par le modèle linéaire Y = 6o + B1.X ; 


e Un écart e; représente la différente entre la valeur réelle de Y pour l'individu i 
et la valeur Y; calculée en utilisant la ligne de régression ; 


ə Souvent, on utilise le terme €; au lieu de e:; 

ə Donc: A 
e; = é; = Yi — Yı = Yi — (o + b1-X;) 

ə L'estimation de la droite de la régression se fait souvent par la méthode des 
Moindre Carrés Ordinaires (MCO); 

ə Mais, on peut utiliser aussi la méthode de Lagrangien (optimisation NON 
linéaire) ; 
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Régression linéaire simple : le modèle 


Bo Fo = Bo + Bi 


X1 Xi Xn 


e bo représente la valeur de Y pour X; = 0. Il représente l'intersection entre la 
droite de régression et l'axe des ordonnées ; 


e BP: représente la pente de la droite de la droite de régression. Il représ 
quantité de Y due à l'augmentation de X par une unité; 
INSEA 
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Méthode des Moindre Carrés Ordinaires (MCO) 


e Le problème de la méthode des Moindre Carrés Ordinaires (MCO) consiste à 
chercher les paramètres de la droite qui minimise le carré des écarts ; 


è Min Q(bo; b1) = Line = Dia (Yi - WP = Eiai- (Go + 21X)? 
e On dérive Q(8o, 61) par rapport à chacun des paramètres à estimer 6o et 1 ; 
@ On minimise le carré des résidus car la somme des écarts non pris au carrés 
est nulle. Autrement : 
=. g= Fi — Ÿ;) = 0. Les écarts positifs compensent ceux négatifs ; 
e On égalise les dérivées premières à 0 : 
o 2%) -0> Bo 
@ 260.81) — 0 = A 
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La droite de régression 


ə La méthode des M.C.O donne les paramètres suivants de la droite de 
régression : 
= Cov(X,Y) _ DE E FO XNA 
= bé : DCE Da XP —N.X2 
9 b= Y- pı.X 


e La droite de régression passe nécessairement par les moyennes X et Y ; 
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La qualité de la régression : le coefficient de détermination 


e Pour apprécier la qualité de l'ajustement de la droite des M.C.O, on calcule 
le coefficient de détermination R? ; 


ə Le coefficient R? est une mesure utilisée pour évaluer à quel point le modèle 
linéaire ajusté s'ajuste aux données réelles ou observées ; 


ə || représente la proportion de la variance de la variable dépendante (Y) qui 
est expliquée par la variable indépendante (X) ; 


ə En termes simples, R? mesure la proximité des points de données par rapport 
à la droite de régression ; 


ə R? est toujours entre 0 et 1 : Plus il est proche de 1, plus la droite s'ajuste 
bien aux données. S'il est proche de 0, la droite n'explique pas bien la 
variance des données ; 


ə Le coefficient R? n’est pas le carré du coefficient px y de corrélation 
p p 


entre X et Y! 
A 
<< 
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Calcul du coefficient R? 


ə On a: 


@ Y; = bo + B1.X; : les observations de Yajustée que nous avons calculé à partir de 


la droite de régression ; 


Q a= Y-Y 

9 Yi =po+pıXi+ e 
© nn ana 
Total droite erreurs 


e Pour calculer le coefficient R2, on a : 
Dee 
Q Var(Y) = == — 


N rọ 2 
a V—Ÿ , . . E 
@ Var(Y)= LAMY : Représente la variance des observations de Y 


estimées par la droite de régression ; 


: Représente la variance totale de la variable Y 


DV , . 
Q Var(e;) = ==; : Représente la variance des erreurs ; 
© vY) = VI“) + V(e) 
de a den ms + 
Variance totale Variance expliquée Variance résiduelle 
e Donc: 
a N a 
R2 — MEL. i V(e) _ 1 Det n)? 
co i — BORN T y2 
A9) 2) SP) 
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M.C.O : Exemple d'application 


e Soient les données sur la consommation des médicaments et la population : 


Pays (i) Cons(Y) Pop.(X) 
1 327,4 17,3 
2 179,5 7,7 
3 279,4 10,4 
4 139,1 5,1 
5 92,5 5 
6 926,7 56,9 
7 2186,3 79,7 
8 523,9 57,8 
9 935,9 124 
10 444,2 15,1 
11 119,7 4,3 
12 300,7 39 
13 201,9 8,7 
14 194,7 6,9 
15 1592,9 57,7 
16 5142,2 252,7 
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@ Calculer le coefficient de 
corrélation rxy 


@ Calculer des paramètres de la 
droite de régression 6o et 61 


@ Calculer le coefficient de 
détermination R? et commenter la 
qualité de l'ajustement ; 
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M.C.O : Corrigé 


de l'exemple d'application 


Total 


748 13 587 
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1 17 327 5 664 299 107 191 
2 8 180 1 382 59 32 220 
3 10 279 2 906 108 78 064 
4 5 139 709 26 19 349 
5 5 93 463 25 8 556 
6 57 927 52 729 3 238 858 773 
7 80 2 186 174 248 6 352 4 779 908 
8 58 524 30 281 3 341 274 471 
9 124 936 116 052 | 15 376 875 909 
10 15 444 6 707 228 197 314 
11 4 120 515 18 14 328 
12 39 301 11 727 1 521 90 420 
13 9 202 1 757 76 40 764 
14 7 195 1 343 48 37 908 
15 58 1 593 91 910 3 329 2 537 330 
16 253 5 142 | 1299434 | 63 857 | 26 442 221 


1 797 828 97 902 36 394 726 
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M.C.O : Corrigé de l'exemple d'application 


X = TE = 46.77 
o Y = IE — 849.19 

"x xD, XD _ 
Via- a Et ve vi) 


16x1797828— (x) = 0 03 : Un f ra: sya ” 
; e forte liaison positive ; 
„/(16x97902)— (748)2x4/ (16x36394726)— (13587) ? P 


® px,Y 


e Les paramètres de la droite de régression : 
O =Y g B1.X = 849,19 — (18, 48x46, 77) = —15, 03 
Q 6 — RE = D eae = 18,48 : La consommation 
des pays augmente de 18.48 unitées avec l'augmentation de la population 
d’une unité ; 
ə Pour calculer le coefficient de détermination R?, on doit d'abord calculer les 


À 
Yi; 
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M.C.O : Corrigé de l'exemple d'application 


748 13 587 


0 24856816 13 587 
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17 327 - 522 272 262 305 23 518 
180 - 670 448 481 127 52 2 729 
10 279 - 570 324 658 177 102 10 455 
139 - 710 504 224 79 60 3 586 
5 93 - 757 572 576 T7 15 229 
57 927 78 6 008 1 036 - 110 12 034 
80 2 186 1 337 1 787 870 1 458 729 530 848 
58 524 - 325 105 812 1 053 - 529 279 977 
124 936 87 7 519 2276 | -1340 | 1796 679 
15 444 - 405 164 015 264 180 32 473 
4 120 - 729 532 152 64 55 3 055 
39 301 - 548 300 839 706 - 405 163 971 
9 202 - 647 418 981 146 56 3 154 
7 195 - 654 428 354 112 82 6 761 
58 1 593 744 553 108 1 051 542 293 
253 5 142 4 293 | 18 429 956 4 654 488 237 186 


0 3377799 $ 
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M.C.O : Corrigé de l'exemple d'application 


N YA Y2 
o R= 1- Aa? L g 337779 L 1 0,1359 = 0 8641: 


bp AT 24856816 
i=1 
6 000 
e Yi 
5000 à e16 
+e Yi y = 18,478x- 15,027 
_— Droite de R? = 0,8641 


régression 
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Cas d'une relation non linéaire 


e L'utilisation de la méthode des M.C.O se base sur l'hypothèse de linéarité 
entre X et Y; 


ə En cas de non linéarité, il faut faire une transformation des variables avant 
d'utiliser les M.C.O ; 


ə Nous allons voir les trois cas suivants : 


@ La relation exponentiel ; 
@ La relation à élasticité constante ; 
@ La relation logistique ; 


e Attention : La lecture des paramètres de la droite de régression 
change si on introduit le logarithme sur une des variables du modèle 
ou sur les deux ou tout simplement si la relation entre les deux 
variables X et Y n'est linéaire. 
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Relation non linéaire : Schéma exponentiel 


ə Si le nuage de points présente une forme exponentiel, on utilise une équation 
de relation exponentielle ; 

ə Si on utilise un modèle linéaire, le coefficient de détermination va être faible 
comme montré dans la figure de droite ; 


o ° 
J 100 
100 è 
FM 80 
804 è 
° 
K 60 
60 
, 
.” 40 
° 
40 C1) 
ii 20 
204 wY 
nn adi 0 
0 
r r 
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Relation non linéaire : Schéma exponentiel 


e L'équation de la relation exponentielle est comme suit : 
eZ =ke 
ə Si on introduit le logarithme des deux cotés, on aura : 


ə In(Z) = In(k)+ a.ln(X), la fonction est maintenant sous la forme linéaire 
Y = bo + B1.X. Avec : 


@ Y = In(Z); 

@ X = X (inchangée) 
@ A =a 

@ % = In(k) 


. Bo = In(Z) — X 
Cov(X,In(Z X.In(Z)—X.in(2) 
e Bi = DPS re ) 
ə Interprétation de G1 : La variation relative de Y suite à la variation de X 


d'une unité; PP 
es 
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Relation non linéaire : Schéma à élasticité constante 


ə Si le nuage de points présente une forme d'une relation décroissante entre X 
et Y, mais avec un impact de X sur Y différent selon le niveau de X on utilise 
une équation de nature à élasticité constante; 

ə Si on utilise un modèle linéaire, le coefficient de détermination va être faible; 


e Un exemple de la théorie économique est la relation entre la propension 
marginale à consommer et le revenu ; 
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Relation non linéaire : Schéma à élasticité constante 


e L'équation de la relation exponentielle est comme suit : 
e Z =K,.Ùr 
ə Si on introduit le logarithme des deux cotés, on aura : 


ə In(Z) = a.ln(U) + In(K) on a fonction est maintenant sous la forme linéaire 
Y = bo + a.X. Avec : 


@ Y = In(Z); 
@ X = In(U) 
Q 1-32 

@ = In(k) 


ə Bo = In(Z) — B1.n(U) 
Cov( ne In(z)) — In(U).In(Z)—In(U).In(Z) 
o Pi = VENU) MO- mO 
ə Interprétation de 51 : La variation relative de Y suite à une variation relative 


de X; AAS 
sis 
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Relation non linéaire : Schéma logistique 


ə Si le nuage de points présente une forme d'une relation croissante entre X et 
Y, mais Y presque stagne lorsque X atteint un certain niveau, on utilise une 


équation de nature à élasticité constante ; 


e Si on utilise un modèle linéaire, le coefficient de détermination va être faible: 


o 
[e] - 
J 560 
x 
00 o 
al So 
19 
/ 
J O 
o Poo” 
o : (e) pe 2.28 A 
7808060" 6" 600 = [e] 
D EE = 
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Relation non linéaire : Schéma logistique 


e L'équation de la relation exponentielle est comme suit : 
— 1 

o Z = rex 

ə Pour linéariser la relation on suit les étapes suivantes : 


Q > =1+k.e ?* 

@ > -1—k.e °* 

© :Z=Ke "* 

0 -T+ 

Oo /n LE = a.X — In(k) la fonction est maintenant sous la forme linéaire 
Y = bo + a.X. Avec 

o Y= m(137); 

@ X = X (inchangée) 

Q A —a 

@ =- In(k) 


o Bo = In (£) — bı 


X 
1-2 v 1—Z 
° = Cov(X,v) _ X-n(=£)-X.n(=£) 


vx% — VX N 
ə Interprétation de 6; : La variation relative de Y = t52 suite à une 


Z 
de X d'une unité; 
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Questions ? 
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